Noisy DARTS:含注入噪声的可微分神经网络搜索
背景介绍
由于 DARTS 的可复现性不高,也遭到了不少研究者和从业人员的质疑,主要集中在,[1] 训练过程中存在 skip-connection 富集现象,导致最终模型出现大幅度的性能损失问题 [2] softmax 离散化存在很大 gap,结构参数最佳的操作和其他算子之间的区分度并不明显,这样选择的操作很难达到最优。
针对这两个问题,小米实验室 AutoML 团队的研究者(作者:初祥祥、张勃等)提出了他们的最新研究成果 NoisyDARTS,通过向 skip-connection 注入噪声的方法,来抵消由于不公平竞争而导致的富集和性能损失问题,并且在 CIFAR-10 和 ImageNet 上分别取得了 97.61%77.9% 的 SOTA 结果。
其实早在其之前的工作 FairDARTS [1] 中,就通过使用 sigmoid 函数而不是 softmax 函数来解决富集和性能损失问题。
他们认为,softmax 使不同操作之间的关系变为竞争关系,由于 skip connection 和其他算子的加和操作形成残差结构,这就导致了 skip connection 比其他算子有很大的优势,这种优势在竞争环境下表现为不公平优势并持续放大,而其他有潜力的操作受到排挤,因此任意两个节点之间通常最终会以 skip connection 占据主导,导致最终搜索出的网络性能严重不足。
而 FairDARTS 通过 sigmoid 使每种操作有自己的权重,这样鼓励不同的操作之间相互合作,最终选择算子的时候选择大于某个阈值的一个或多个算子,在这种情形下,所有算子的结构权重都能够如实体现其对超网性能的贡献,而且残差结构也得以保留,因此最终生成的网络不会出现性能崩塌,从而避免了原生 DARTS 的 skip-connection 富集而导致的性能损失问题。
新作 NoisyDARTS 是在 FairDARTS 基础上的推论,既然 skip connection 存在不公平优势,那么对其注入噪声即可干扰其优势,抑制其过度发挥,从而解决 skip connection 富集现象。
方法
通过加注噪声来增强训练的方法在深度学习领域早已有很多应用,比如 Vincent et al. [1] 通过加注噪声使得自编码器提取稳健(rubust)特征;Fortunato et al. [4] 通过随机噪声实现稳定强化学习中的搜索;同时 Neeklakantan et al. [5] 和Zhang et al. [6] 指出,在梯度中注入噪声也可以促进模型的训练。
本节接下来主要回答 NoisyDARTS 关于噪声的的主要两个问题:如何加入噪声?加入怎样的噪声?并且在末尾给出 DARTS 上的具体实现。
其次,加入怎样的噪声。文章中提到如上图所示,加入噪声会为梯度更新带来不确定性,那么 skip-connection 就更难胜过其他操作,因此原本不公平的优势就被削弱了。可是保持梯度的更新是有效的,应该加注怎样的噪声?
实验及结果
总结
首先,NoisyDARTS 提出通过对 skip-connection 中加入噪声(无偏小方差高斯噪声),极大的限制了原本 skip-connection 的不公平竞争问题,解决了 DARTS 中skip-connection富集和模型化后性能损失的问题。
其次,通过实验,NoisyDARTS 分别在 CIFAR-10 和 ImageNet 上取得了 state-of-art 的稳健的结果。
最早的机器学习其实是特征工程,由专家设计好特征后交给比如 SVM 进行学习。但在 CNN 时代,端到端的网络模型被认为能够自动的找到有效特征,从而取得更好的预测结果。现在,模型的复杂度和超参数日益提升,手动调整的参数远非最优,AutoML/Learn2Learn 的发展必不可少。
参考文献
[1] Xiangxiang Chu, Tianbao Zhou, Bo Zhang, and Jixiang Li. Fair darts: Eliminating unfair advantages in differentiable architecture search. arXiv preprint arXiv:1911.12126, 2019a.
[2] Hanxiao Liu, Karen Simonyan, and Yiming Yang. DARTS: Differentiable Architecture Search. In ICLR, 2019.
[3] Pascal Vincent, Hugo Larochelle, Yoshua Bengio, and Pierre-Antoine Manzagol. Extracting and composing robust features with denoising autoencoders. In Proceedings ofthe 25th international conference on Machine learning, pages 1096–1103, 2008.
[4] Meire Fortunato, Mohammad Gheshlaghi Azar, Bilal Piot, Jacob Menick, Matteo Hessel, Ian Osband, Alex Graves, Volodymyr Mnih, Remi Munos, Demis Hassabis, Olivier Pietquin, Charles Blundell, and Shane Legg. Noisy networks for exploration. In International Conference on Learning Representations, 2018.
[5] Arvind Neelakantan, Luke Vilnis, Quoc V Le, Ilya Sutskever, Lukasz Kaiser, Karol Kurach, and James Martens. Adding Gradient Noise Improves Learning for Very Deep Networks. arXiv preprint arXiv:1511.06807, 2015.
[6] Baochang Zhang, Chen Chen, Qixiang Ye, Jianzhuang Liu, David Doermann, et al. Calibrated Stochastic Gradient Descent for Convolutional Neural Networks. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 9348–9355, 2019.
[7] Han Cai, Ligeng Zhu, and Song Han. ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware. In ICLR, 2019.
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。